10月25日,聚焦G景图由声网和 RTE 开发者社区联合主办的时代声网 RTE2024 第十届实时互联网大会在北京正式开幕,本届大会主题为“AI 爱”,发布WhatsApp%E3%80%90+86%2015855158769%E3%80%91army%20black%20knights%20football%20jersey覆盖AI、力全出海、聚焦G景图社交泛娱乐、时代声网IoT、发布Voice AI、力全空间计算等20+行业及技术分论坛。聚焦G景图
今年是时代声网声网成立的十周年,也是发布 RTE 大会的第十届。十年间,力全实时互动从“理念”发展成一个“行业”。聚焦G景图实时互动技术不仅助力社交泛娱乐、时代声网在线教育、发布IoT、企业服务等几十个行业、数百个场景实现了跨越式成长,也支撑了诸多互联网风口的进化,从过去的电商直播、互联网医疗、秀场直播到如今的大模型,都离不开 RTE 能力的参与。
在全新的生成式?AI 时代,RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中,声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、WhatsApp%E3%80%90+86%2015855158769%E3%80%91army%20black%20knights%20football%20jerseyCTO 钟声分别带来主题演讲。赵斌分享了声网十年以来专注实时互动行业的深刻洞察,以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下,分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上,并分享了 AI 与 RTE 结合的前沿技术实践。
?
趙斌:生成式?AI 將驅(qū)動(dòng) IT 行業(yè)四大變革
生成式?AI 正在驅(qū)動(dòng) IT 行業(yè)發(fā)生大變革,趙斌認(rèn)為,這一趨勢(shì)主要體現(xiàn)在四個(gè)層面:終端、軟件、云和人機(jī)界面。在終端上,大模型能力將驅(qū)動(dòng) PC 和 Phone 往 AI PC 和 AI Phone 的方向進(jìn)化。在軟件上,所有的軟件都可以、也將會(huì)通過(guò)大模型重新實(shí)現(xiàn),并從 Software with AI 發(fā)展至 AI Native Software 。在云的層面,所有云都需要具備對(duì)大模型訓(xùn)練和推理的能力,AI Native Cloud 將成為主流。此外,人機(jī)界面的主流交互方式也將從鍵盤(pán)、鼠標(biāo)、觸屏變成自然語(yǔ)言對(duì)話界面(LUI)。?

隨著生成式?AI 成為下個(gè)時(shí)代 IT 行業(yè)進(jìn)化的主題,RTE 也成為了多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施中一個(gè)關(guān)鍵的部分。10月初,聲網(wǎng)的兄弟公司 Agora 作為語(yǔ)音 API 合作者,出現(xiàn)在了OpenAI 發(fā)布的 Realtime API 公開(kāi)測(cè)試版中。
在此次大會(huì)中,趙斌表示,聲網(wǎng)與 MiniMax?正在打磨中國(guó)第一個(gè)Realtime API。趙斌也展示了聲網(wǎng)基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話。當(dāng)人類(lèi)打斷智能體并提出新的疑問(wèn)時(shí),智能體也能夠靈敏的快速反應(yīng),實(shí)現(xiàn)了與人類(lèi)自然流暢的對(duì)話。

在生成式?AI 的大潮下,RTE 將會(huì)提供更為廣闊的空間。趙斌也在分享中宣布,聲網(wǎng)正式發(fā)布了 RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式 AI 解決方案、RTE+AI 應(yīng)用場(chǎng)景五個(gè)維度,清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。生成式 AI 與RTE 結(jié)合帶來(lái)的場(chǎng)景創(chuàng)新,將成為下一個(gè)十年的主題。

過(guò)去十年,聲網(wǎng)不僅見(jiàn)證并推動(dòng)了?RTE 從一個(gè)理念變成一個(gè)行業(yè)的過(guò)程,更身體力行的打破了國(guó)內(nèi)實(shí)時(shí)音視頻領(lǐng)域的三無(wú)狀態(tài)。趙斌稱(chēng),10年前行業(yè)內(nèi)沒(méi)有行業(yè)會(huì)議、專(zhuān)業(yè)書(shū)籍、以及專(zhuān)業(yè)媒體和社區(qū)。如今,RTE 大會(huì)邁入第10年,聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書(shū)《讀懂實(shí)時(shí)互動(dòng)》,同時(shí),RTE開(kāi)發(fā)者社區(qū)也持續(xù)繁榮,加速推動(dòng)。
贾扬清:AI 是云的第三次浪潮
隨著?AI 技術(shù)的發(fā)展,AI 時(shí)代的大模型應(yīng)用開(kāi)發(fā)、AI 云、以及 GPU 等基礎(chǔ)設(shè)施建設(shè)逐漸成為熱門(mén)話題,也成為了支撐整個(gè)行業(yè)發(fā)展、催生新應(yīng)用誕生、新商業(yè)價(jià)值實(shí)現(xiàn)的基本底座。Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清在 RTE2024 主論壇上分別從 AI 應(yīng)用、云、GPU 算力云技術(shù)以及企業(yè)大模型自主性等層面帶來(lái)了他對(duì) AI 基礎(chǔ)設(shè)施進(jìn)化的解讀。
針對(duì)?AI 應(yīng)用,賈揚(yáng)清指出,越是簡(jiǎn)潔的 AI 模型思路越容易產(chǎn)生優(yōu)秀的效果。AI 能力加持后,應(yīng)用本身的開(kāi)發(fā)范式也在從數(shù)據(jù)、模型、應(yīng)用構(gòu)建三個(gè)維度發(fā)生變化,未來(lái)的應(yīng)用開(kāi)發(fā)將從“以流程為中心” 轉(zhuǎn)化為“以模型為中心”。?

除了?AI 應(yīng)用層面,傳統(tǒng)的云架構(gòu)也在大模型、GPU 優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚(yáng)清認(rèn)為,AI 是云的第三次浪潮,繼 Web 云、數(shù)據(jù)云之后,AI 將成為第三朵云。AI 云有以下三個(gè)特征:算力會(huì)成為智能的基礎(chǔ)、AI 云需要大量計(jì)算與大規(guī)模的異構(gòu)集群,以及少量但高質(zhì)量的通訊。總體而言,云的產(chǎn)品形態(tài),本質(zhì)是計(jì)算和傳輸?shù)钠胶狻YZ揚(yáng)清指出,在 AI 云的形態(tài)下,實(shí)時(shí)的交流和智能的結(jié)合在用戶體驗(yàn)環(huán)節(jié)非常重要。毫不夸張的說(shuō),實(shí)時(shí)將直接與生產(chǎn)力劃上等號(hào)。
企业在构建自己的大模型自主性上,到底该如何决策?贾扬清强调,企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性,还有更低的成本以及更高的速度,开源+定制化能够达到比闭源模型更好的效果。
钟声:分布式端边云结合的AI系统将成为现代基础设施的基本形态
?在已經(jīng)到來(lái)的?AI 時(shí)代,現(xiàn)代化基礎(chǔ)設(shè)施應(yīng)該是什么樣?聲網(wǎng)首席科學(xué)家、CTO鐘聲提到,大量用戶設(shè)備往往會(huì)先接入邊緣節(jié)點(diǎn)、并在需要的時(shí)候再接入云端,數(shù)據(jù)將在端設(shè)備、邊緣節(jié)點(diǎn)和云之間往返傳遞。AI 時(shí)代的數(shù)據(jù)中心會(huì)包含以大量異構(gòu)算力組成的超級(jí)計(jì)算集群(SuperScaler)。但是,停留在僅依賴(lài)超級(jí)計(jì)算集群的系統(tǒng)是遠(yuǎn)遠(yuǎn)不夠的,萬(wàn)億參數(shù)、多模態(tài)引入所造成的高昂計(jì)算成本、缺乏機(jī)制約束的數(shù)據(jù)隱私保護(hù)、幾秒鐘的延時(shí)都將阻礙大模型的普惠,極大地限制其在很多場(chǎng)景下的應(yīng)用。
鐘聲認(rèn)為,分布式端邊云結(jié)合的?AI 系統(tǒng)將有效解決這些痛點(diǎn)。這個(gè)系統(tǒng)將把計(jì)算和傳輸在各節(jié)點(diǎn)做合理地配置,系統(tǒng)會(huì)智能地以自適應(yīng)的方式把任務(wù)編排到端與邊上執(zhí)行,非常有效地降低了成本,同時(shí)提供了更低延時(shí)(低于1秒級(jí)的響應(yīng)速度)、更高網(wǎng)絡(luò)抖動(dòng)容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會(huì)保留在端上。?

分享过程中,钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体,这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声的互动仍然表现出了优秀的对话能力,在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话,对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。
正如钟声在最后分享的,随着端设备的多样化以及能力的提升,AI 基础设施会变得更优化合理,使得 AI 无处不在,AI助理、AI分身帮助我们有效缓解时间稀缺性,改善工作效率和生活体验。
圆桌:AI 的6000亿难题,从基础设施到商业化落地
AI 的6000亿美元难题,一直都是整个行业非常关心的话题,在圆桌讨论环节中,Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國(guó)洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang?五位嘉賓一起探討了從?AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機(jī)會(huì)與挑戰(zhàn)。

针对商用大模型和开源大模型未来的发展趋势,贾扬清分享了两个核心观点:其一,同等质量模型的Size会变得越来越小,计算效率会越来越高,模型架构也会变得更加开放和标准。其二,除了极少数头部公司之外,越来越多的企业会采用开源架构来做下一代模型。因此,开源架构的应用会变的越来越普遍,通过开源架构训练出来的模型也都会有各自不同的风格。
王鐵震則表示,我們將在未來(lái)看到越來(lái)越多?Infra 和 Realtime 的工作,大家不僅需要關(guān)注開(kāi)源模型本身,還需要重視開(kāi)源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán),才能把開(kāi)源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能夠通過(guò)一些方式放在一起,放在邊緣側(cè)、離用戶更近的地方,才能產(chǎn)生較好的效果。
關(guān)于如何看待音視頻多模態(tài)模型的實(shí)際應(yīng)用潛力,魏偉表示,隨著多模態(tài)的出現(xiàn),生成式人工智能的邊界一定會(huì)被繼續(xù)拓展,并加速這一產(chǎn)業(yè)的變革。從產(chǎn)品和用戶服務(wù)過(guò)程中魏偉發(fā)現(xiàn),文本、語(yǔ)音、音樂(lè)、視頻這些模型可以幫助藝術(shù)、影視、音樂(lè)等領(lǐng)域的創(chuàng)作者極大地提高效率,并為他們提供新的思路和方法。?
針對(duì)大模型技術(shù)巨大的成本使用問(wèn)題,曾國(guó)洋分享到,隨著技術(shù)的前進(jìn),算力一定會(huì)變得越來(lái)越便宜,相同能力的模型規(guī)模也會(huì)變得越來(lái)越小,但算力成本優(yōu)化會(huì)最終轉(zhuǎn)化為訓(xùn)練更強(qiáng)大的模型。真正達(dá)到?AGI 水平之前,我們只能感受到模型在變得越來(lái)越強(qiáng),很難感受到成本的變化。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解到,由于面壁智能是做端側(cè)模型的,所以很關(guān)注如何讓模型在端上跑得更快,在實(shí)際部署過(guò)程中,他們會(huì)用各種量化壓縮甚至是稀疏化方法去優(yōu)化實(shí)際部署的開(kāi)銷(xiāo)。
總結(jié)來(lái)說(shuō),Tony Wang 認(rèn)為想要推動(dòng) AI Infra 到模型、再到商業(yè)化落地,技術(shù)驅(qū)動(dòng)和成本是最核心的兩個(gè)點(diǎn)。此外,在產(chǎn)品真正走向市場(chǎng)的過(guò)程中,流量和口碑也是關(guān)鍵。?
過(guò)去十年,聲網(wǎng)不僅見(jiàn)證并推動(dòng)了?RTE 從一個(gè)理念變成一個(gè)行業(yè)的過(guò)程,更身體力行的打破了國(guó)內(nèi)實(shí)時(shí)音視頻領(lǐng)域無(wú)行業(yè)會(huì)議、無(wú)專(zhuān)業(yè)書(shū)籍、無(wú)專(zhuān)業(yè)媒體及社區(qū)的三無(wú)狀態(tài)。自此,RTE 大會(huì)邁入第10年,行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書(shū)《讀懂實(shí)時(shí)互動(dòng)》于今年8月正式出版,RTE開(kāi)發(fā)者社區(qū)也正在秉持著“開(kāi)放、連接、共創(chuàng)” 的理念加速實(shí)時(shí)互動(dòng)和 AI 的共生。
?未來(lái),聲網(wǎng)將繼續(xù)和大家一起,站在全新的起點(diǎn)、擁抱繁榮且充滿挑戰(zhàn)的?AI + RTE 新時(shí)代。




























